史丹福和普林斯頓研究者發現,DeepSeek-R1生成的自訂CUDA核心,完爆了o1和Claude 3.5 Sonnet,拿下總排名第一。雖然目前只能在不到20%任務上超越PyTorch Eager基線,但GPU程式設計加速自動化的按鈕,已經被按下!
近日,來自史丹福和普林斯頓的研究者發現,DeepSeek-R1已經能生成自訂CUDA核心了,而且還在一眾推理模型中,直接拿下了TOP 1!
緊隨其後,OpenAI o1和Claude 3.5 Sonnet分別排第二和第三。
具體過程,就是給定一個PyTorch程序,讓模型對其最佳化,然後生成一個包含自訂CUDA核心的PyTorch版本。